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摘要 — 随 着 机 器 学 习 在 中 子 - 伽 马 Cn-y) 杜 别 中 的 广泛 应 用 ， 脉 冲 波形 甄别 中 的 特征 子 集 选 择 成 为 一 个 值得 
关注 的 问题 。 经 验方 法 、Random Forest 分 类 和 Logistic 回归 特征 选择 算法 较为 全 面 地 完善 了 特征 子 集 选择 
方法 ， 核 主 成 分 分 析 CKPCAO 则 将 特征 子 集 进一步 降 维 。 实 验 结果 表明 ， 特 征 选择 算法 在 微弱 的 核 信号 中 
表现 不 佳 , 错误 率 均 达 30% 以 上 。 经 验方 法 中 的 特征 子 集 选取 范围 则 至 关 重 要 , 特征 子 集 “1-62” 的 错误 率 
达到 49.096%， 远 高 于 来 自 脉冲 尾部 的 特征 子 集约 1% 的 错误 率 。 最 优 特征 子 集 与 尾 积 分 对 应 的 采样 点 不 完 
全 重合 ， 但 差异 不 大 ， 尾 积分 对 应 的 采样 点 可 近似 为 最 优 特征 子 集 。 通 过 研究 目前 具有 代表 性 的 Random 
Forest 分 类 、Logistic 回归 等 特征 选择 算法 和 细致 的 经 验方 法 ， 论 文 结果 具有 普 适 性 ， 为 特征 子 集 的 选择 提 
供 了 进一步 的 理论 支持 。 
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shape discrimination 


DING Tingmeng! JIANG Yuhang! YANG Luying! JIANG Xiaofei! 
1(Big Data and Information Engineering, GuiZhou University, Guiyang 550025, China) 


Abstract [Background]: With the widespread application of machine learning in neutron-gamma (n-y) 
discrimination, the selection of feature subsets in pulse waveform discrimination has become a notable issue. 
[Purpose]: By investigating representative feature selection algorithms such as Random Forest classification and 
Logistic regression, as well as detailed empirical methods, the results of this paper are universally applicable, 
providing further theoretical support for the selection of feature subsets. [Methods]: Empirical methods, Random 
Forest classification, and Logistic regression feature selection algorithms have comprehensively improved the 
methods of feature subset selection, while Kernel Principal Component Analysis (KPCA) further reduces the 
dimensionality of feature subsets. [Results]: Experimental results indicate that feature selection algorithms 
perform poorly in weak nuclear signals, with error rates exceeding 3096. The selection range of feature subsets in 
empirical methods is crucial, with error rates reaching 49.096% for feature subset "1-62", significantly higher than 
the approximately 1% error rate from features originating from the pulse tail. [Conclusions]: The optimal feature 
subset does not entirely overlap with the sampling points corresponding to the tail integral, but the difference is 
minor, suggesting that the sampling points corresponding to the tail integral can be approximated as the optimal 
feature subset. 
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1 方法 与 原理 

在 机 器 学 习 中 ， 高 维 数据 不 适合 直接 作为 输入 。 为 了 尽 可 能 降低 特征 的 维度 ， 本 文通 过 
经 验方 法 挑选 脉冲 差异 较 大 的 采样 点 、 使 用 Random Forest 分 类 和 Logistic 回归 等 特征 选择 
算法 得 到 特征 子 集 ， 特 征 子 集 再 降 维 以 得 到 数 个 最 佳 低 维特 征 ( 图 1)。 
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图 1 核 脉 冲 信 号 中 特征 选择 与 降 维 示意 图 
Fig.1 Flowchart of impulse signal feature selection and dimensionality reduction 


1.1 构建 特征 子 集 

面 对 高 维 数据 , 需要 尽量 去 除 见 余 项 ,从 原始 脉冲 采样 点 中 挑选 一 部 分 特征 组 成 特征 子 
集 。 特 征 子 集 可 以 通过 经 验 挑选 脉冲 差异 较 大 的 采样 点 得 到 ， 还 可 以 通过 Random Forest 分 
类 和 Logistic 回归 等 特征 选择 算法 得 到 。 
脉冲 尾部 是 中 子 和 伽 马 射 线 两 类 脉冲 间 差 异 最 大 的 部 分 , 特征 子 集 内 的 特征 应 当 来 自 于 
脉冲 尾部 的 采样 点 ,但 采样 点 的 多 寡 并 不 统一 。 构建 特征 子 集 的 常规 做 法 是 以 经 验 挑 选 脉冲 
差异 较 大 的 采样 点 ， 即 脉冲 尾部 的 数 十 个 点 ， 当 然 该 方法 依赖 于 “经 验 ” 与 估计 。 

特征 选择 算法 通过 去 除 不 相关 、 元 余 或 嘲 杂 的 特征 ,从 原始 特征 中 选择 小 部 分 特征 进行 
降 维 ，Random Forest 分 类 和 Logistic 回归 都 属于 特征 选择 方法 。 随 机 森林 是 一 种 包含 多 棵 
决策 树 的 分 类 器 算法 模型 ， 而 每 棵 决策 树 由 根 节 点 、 内 部 节点 和 叶 节 点 组 成 。 叶 子 节 点 为 分 
类 结果 ， 根 节点 和 内 部 节点 为 决策 依据 。Logistic 回归 是 一 种 二 分 类 算法 ， 通 过 多 个 自 变 量 
的 线性 组 合 来 预测 分 类 变量 的 概率 。 

为 了 增加 Random Forest 特征 选择 算法 结果 的 可 靠 性 ， 我 们 逐步 增 大 原始 特征 的 大 小 ， 
原始 特征 分 别 取 脉冲 尾部 34 个 采样 点 、 脉 冲 非 基 线 部 分 62 个 采样 点 以 及 包含 部 分 基线 的 
120 个 采样 点 。 通 过 特征 子 集 内 包含 的 脉冲 与 脉冲 尾部 采样 点 之 间 的 差异 ， 我 们 能 够 评估 
Random Forest 分 类 特征 选择 算法 对 宛 余 项 的 排除 能 力 。Random Forest 分 类 和 Logistic 回归 
从 原始 特征 中 会 分 别 选 择 出 一 个 特征 子 集 , 如 果 特 征 选择 算法 的 可 靠 性 高 , Random Forest 分 
类 和 Logistic 回归 所 得 的 特征 子 集 应 当 保 持 一 致 ; 如 果 核 脉冲 采样 点 中 有 重要 性 明显 高 的 特 
TE, 那 基 线 不 应 对 特征 选择 结果 产生 影响 , 将 基线 采样 点 也 纳入 原始 特征 可 以 评估 特征 选择 
算法 的 稳定 性 。 
1.2 降 维 

核 主 成 分 分 析 (KPCA) 是 一 种 基本 的 特征 提取 方法 ， 该 方法 将 高 维 数据 映射 到 低 维 正 
交 特 征 上 ， 这 些 重新 构造 的 特征 被 称 为 主 成 分 。 特 征 子 集 内 的 特征 数 依旧 较 高 ，KPCA 将 特 


es 


征 子 集 内 的 特征 映射 为 新 的 主 成 分 从 而 实现 降 维 , 此 时 只 需要 数 个 主 成 分 即 可 得 到 较 高 的 累 
计 方 差 。 
1.3 Qui 和 Qtotal 

如 图 2 PR, Qai 和 Qio 分 别 是 脉冲 的 电荷 总 积分 和 尾 积分 ，CCM 正 是 以 这 二 者 比值 
作为 甄别 因子 。Qaa 和 Quoi 可 视 为 从 脉冲 非 基线 采样 点 提取 的 两 个 独立 特征 ,Quai 和 Qum 可 
以 作为 GMM 聚 类 的 特征 获得 比 CCM 更 好 的 分 类 结果 。 
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图 2 Qtail 和 Qtotal 的 选取 示意 
Fig.2 Diagram ofthe tail integral Qtail and the total integral Qtotal 


1.4 GMM 聚 类 
高 斯 混合 模型 (Gaussian Mixture Model, GMM) 是 一 种 概率 模型 ， 用 于 描述 由 多 个 高 斯 分 
布 组 成 的 数据 集 。 对 于 每 个 分 量 高 斯 ， 其 概率 密度 函数 为 : 


1 一 z 
f(x Bon 2(x-p) E^ (x-p) (1.1) 


KP n ERRER, pe n 维 均 值 向 量 , 是 nxn 的 协 方差 矩阵 ， 显 然 高 斯 分 布 由 un 和 
> 确定 。 初 始 的 脉冲 具有 248 个 特征 ， 如 此 高 的 维度 会 存在 “维度 灾难 ” 为 减少 脉冲 的 特征 
数量 ， 需 要 先进 行 特征 提取 或 者 选择 。 

忽略 脉冲 堆积 ， 在 n-Y 甄别 中 ， 该 模型 只 存在 neutrons 和 gamma rays 两 个 成 分 。 对 于 
两 个 混合 成 分 的 高 斯 混合 分 布 ， 其 概率 密度 为 : 


fu 7 2 0 f Gl. E.) (1.2) 
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Qu 称 为 “混合 系数 ”， 它 为 选择 第 i 个 高 斯 混合 成 分 的 概率 。 其 中 o>0 HJ ou =1。 
i-l 


BUS Son n MIX 3353813 EM 算法 迭代 优化 求解 。EM 算法 每 一 步 迭 代 包 括 两 步 : 
E 步 ， 根 据 当前 的 参数 估计 隐 变 量 的 期 望 , M 2b. RI E 步 的 计算 结果 ， 根 据 最 大 似 然 估 计 
更 新 模型 参数 。 

当 输 入 GMM 聚 类 的 特征 不 同时 ， 聚 类 结果 也 会 随 之 变化 。 本 文 旨 在 探究 最 优 的 特征 子 
集 获 取 方 法 , 通过 比较 不 同 的 特征 子 集 进行 GMM 聚 类 后 的 结果 可 以 评估 不 同 特征 子 集 的 优 
Bo 


2 结果 和 讨论 


本 次 实验 的 流程 图 如 图 3 所 示 ， 中 子 源 为 2X1Am-Be 源 ， 探 测 器 是 有 机 液体 闪烁 体 探 测 


器 EJ-301， 数 字 化 仪 为 DT5730B。 


探测 器 采集 到 的 是 电流 脉冲 ， 脉 冲 经 过 数字 化 后 得 


始 数据 ， 原 始 数据 经 过 平滑 滤波 、 归 
处 理 后 的 60000 个 脉冲 分 为 两 部 分 ， 


靠 的 训练 集 ， 另外 30000 个 脉冲 用 于 测试 ， 以 比较 不 同 算法 的 性 能 差异 。 
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图 3 实验 流程 图 


Fig.3 Experimental flowchart 


2.1 特征 子 集 构建 


到 原 


化 和 基线 恢复 等 预 处 理 步 又 后 存储 于 计算 机 中 31。 预 
其 中 30000 个 脉冲 用 于 进行 GMM 聚 类 ， 以 得 到 一 个 可 


脉冲 的 尾部 积分 对 应 的 采样 点 有 34 个 ,脉冲 非 基 线 部 分 包括 62 个 采样 点 。 中 子 伽 马 两 


类 脉冲 差异 最 大 的 部 分 是 尾 积分 对 应 的 34 个 采样 点 ， 特 征 子 集 可 以 通过 经 验 挑选 脉冲 差异 


较 大 的 采样 点 得 到 。 


除了 经 验方 法 选取 特征 子 集 , 我 们 也 使 用 特征 选择 算法 以 完善 脉冲 形状 杜 别 中 的 特征 子 
集 获 取 方 法 。Random Forest 分 类 是 特征 工程 中 获得 特征 子 集 重要 方法 ， 我 们 采用 5 折 交 叉 


验证 ， 选 定子 集 大 小 范围 从 1 到 13。 


Random Forest 分 类 和 Logistic 


于 99% 的 脉冲 作为 训练 集 ， 依 托 该 i 


Hx 


习 归 依赖 于 先 验 知识 ， 我 们 取 GMM 聚 类 结果 中 概率 大 


1 练 集 寻 找 特征 子 集 。 以 Qua 和 Quai 作为 特征 的 GMM 


聚 类 在 100-2100 keV. 内 的 分 类 结果 与 经 典 的 CCM 保持 一 致 ， 在 0-100 keV 内 的 脉冲 分 类 正 


MEE CCM 高 5.52964. GMM 聚 类 的 结果 时 概率 值 ， 排 除 低 概率 事件 (分 类 概率 <99%) 后 ， 


剩余 脉冲 可 构成 一 个 大 小 为 26261 的 训练 集 。 
Random Forest 分 类 从 脉冲 尾部 的 34 个 采样 点 挑选 特征 子 集 时 , 所 得 特征 子 集 仅 包含 两 


个 特征 ， 但 是 其 重要 性 评分 分 别 为 0.091 和 0.087， 特 征 重要 性 很 低 ， 其 用 作 聚 类 后 的 结果 


极 差 。 


脉冲 尾部 是 中 子 和 伽 马 射线 两 类 脉冲 间 差 异 最 大 的 部 分 , 最 优 特征 子 集 内 多 数 特征 应 当 
来 自 于 脉冲 尾部 的 采样 点 。 为 了 评估 特征 选择 方法 的 可 靠 性 , 我 们 将 原始 特征 扩大 至 非 基 线 
内 包含 的 脉冲 与 脉冲 尾部 采样 点 之 间 的 差异 ， 评 估 该 方 


部 分 的 62 个 采样 点 ， 通 过 最 优 子 集 


法 对 元 余 项 的 排除 能 力 。 图 4 展示 了 不 同 特 和 


E 子 集 大 小 下 的 性 能 指标 ， 包 括 均 方 根 误差 


(RMSE, Root Mean Square Error)、 确 定 系数 (R-squared) 和 平均 绝对 误差 (MAE, Mean Absolute 
Error)， 这 些 指标 用 于 衡量 模型 在 不 同 特征 子 集 大 小 下 的 预测 准确 度 和 稳定 性 。 

图 4(a) 和 图 4(b) 分 别 是 R-squared, RMSE fll MAE 随 子 集 计数 变化 的 柱状 图 和 折线 
随 着 特征 子 集 内 的 特征 数量 从 1 到 13 依次 递增 时 , R-squared 呈现 上 升 趋势 , RMSE fll MAE 
则 是 下 降 趋势 。 从 特征 计数 大 于 7 以 后 ，R-squared，RMSE 和 MAE 变化 率 陡 增 。 在 特征 计 


数 大 于 10/8, R-squared 增长 变 缓慢 ， 同 时 RMSE 和 MAE 的 下 降 变 缓慢 。 从 折线 图 中 不 难 
发 现 ， 特 征 计数 大 于 10 后 三 条 折线 的 变化 都 趋 缓 。 综 合 柱状 图 和 折线 图 的 结果 ， 随 机 森林 
从 62 个 特征 中 选择 的 最 佳 特征 子 集 包 含 10 个 特征 ,这 10 个 特征 分 别 是 第 23、22、24、6、 


16、9、32、21、23、35、15、48 个 采样 点 。 脉 冲 尾部 是 中 子 和 伽 马 射 线 两 类 脉冲 间 差 异 最 
大 的 部 分 , 最 优 特 征 子 集 内 多 数 特 征 应 当 来 自 于 脉冲 尾部 的 采样 点 , 但 是 该 子 集 与 脉冲 下 降 
沿 采 样 点 重合 度 不 高 ， 仅 有 3 个 采样 点 来 自 于 脉冲 尾部 。 
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图 4 性 能 指标 随 着 特征 子 集 大 小 变化 的 柱状 图 和 折线 图 (62 个 采样 点 作为 原始 特征 ) 


Fig.4 Histograms and line plots of changes in performance metrics with feature subset size (62 sample points) 


因为 基线 调 零 后 ， 脉 冲 的 基线 存在 波动 ， 不 完全 为 0。 为 了 探究 脉冲 基线 对 特征 选择 算 
法 的 影响 ， 基 线 的 部 分 采样 点 也 需要 被 考虑 到 特征 选择 算法 中 。 当 原始 特征 数 为 120 时 ， 特 
征 选择 的 结果 如 图 5 所 示 ， 图 5 (a) 和 图 5 (b) 分 别 是 R-squared，RMSE 和 MAE 随 子 集 计 
数 变化 的 柱状 图 和 折线 图 。 在 特征 计数 大 于 6 后 ，R-squared 增长 变 缓慢 ， 同 时 RMSE 和 
MAE 的 下 降 变 缓慢 。 在 R-squared，RMSE 和 MAE 随 子 集 计数 变化 的 折线 图 中 ， 特 征 计 数 
大 于 6 后 三 条 折线 的 变化 都 趋 绥 。 综合 柱状 图 和 折线 图 的 结果 , 随机 森林 从 120 个 特征 中 选 
择 的 最 佳 特征 子 集 包 含 6 个 特征 ， 这 与 从 62 个 采样 点 中 选择 的 特征 子 集 不 同 。 核 信号 是 非 
常 微 弱 的 信号 ， 我 们 无 法 彻底 去 除 掉 所 有 了 噪声， 基线 不 可 能 完全 为 0。 使 用 Random Forest 
分 类 算法 进行 特征 选择 时 ， 基 线 对 特征 选择 的 结果 存在 很 大 干扰 ,特征 选择 算法 的 抗 干扰 能 
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图 5 性 能 指标 随 着 特征 子 集 大 小 变化 的 柱状 图 和 折线 图 (120 个 采样 点 作为 原始 特征 ) 


Fig.5 Histograms and line plots of changes in performance metrics with feature subset size (120 sample points) 


Random Forest 分 类 和 Logistic 回归 都 是 重要 的 特征 选择 算法 ， 除 了 利用 Random Forest 
分 类 模型 进行 特征 选择 , 我 们 还 可 以 利用 leaps 中 的 Logistic 回归 模型 从 62 个 尾部 采样 点 中 
选择 特征 子 集 。Logistic 回归 模型 拟 和 的 效果 以 四 个 参数 评估 ， 这 四 个 参数 分 别 是 : 残 差 平 
方 和 (RSS ,Residual Sum of Squares)， 调 整 后 的 决定 系数 (Adjusted R2, Adjusted R-Squared), 
Mallow's Cp (CP) 和 贝 叶 斯 信息 准则 (BIC ,Bayesian Information Criterion)» 

图 6 展示 了 在 Logistic 回归 模型 中 , 不 同 大 小 特征 子 集 对 应 的 性 能 指标 。 特征 子 集 内 的 
特征 数 为 11 时 ，CP 和 BIC 都 达到 最 小 值 ， 与 此 同时 Adjusted R2 达到 最 大 值 ，RSS 在 特征 
数 为 大 于 11 之 后 不 再 呈现 明显 的 下 降 趋势 。 根 据 该 图 可 知 Logistic 回归 模型 选择 的 最 优 特 
征 子 集 包含 11 个 特征 。Random Forest 分 类 和 Logistic 回归 两 种 特征 选择 算法 的 结果 不 同 ， 
表明 特征 选择 算法 难以 获得 可 靠 的 稳定 的 特征 子 集 。 
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通过 经 验 挑 选 、Random Forest 分 类 和 Logistic 回归 等 特征 选择 算法 得 到 的 特征 子 集 并 
不 相同 。 脉 冲 尾 积分 部 分 包括 34 个 采样 点 〈 特 征 )，Random Forest 分 类 模型 挑选 的 特征 子 
集 包 含 10 个 特征 ，Logistic 回归 模型 挑选 的 特征 子 集 包含 11 个 特征 。 相 比 于 脉冲 的 248 个 
采样 点 ， 这 些 特 征 子 集 的 大 小 以 及 大 为 缩小 ， 我 们 可 先 以 特征 子 集 直接 作为 特征 分 析 GMM 
聚 类 效果 。 为 了 比较 不 同方 法 甄别 效果 的 差异 ， 我 们 以 不 同 的 特征 进行 GMM RK, JHI 
“特征 数 +GMM (n-features GMM)” 命 名 不 同 的 方法 。10-features GMM、11-features GMM, 


Am 


34-features GMM 和 62-features GMM 四 种 方法 使 用 的 特 行 


[25 


| 对 应 于 Random Forest 27 ZS 


型 挑选 的 特征 子 集 、Logistic 回归 模型 挑选 的 特征 子 集 、 脉 冲 尾 积分 部 分 的 34 个 采样 点 和 脉 


冲 非 基线 部 分 的 62 个 采样 点 。 
对 于 EJ-301 探测 器 得 到 的 脉冲 数据 ， 中 子 伽 马 


别 。 要 比较 不 同 特征 下 


马 -y ) 甄 别 中 被 广泛 使 用 的 一 包 
射线 能 够 完全 分 离 。CCM 在 高 能 量 域 的 甄别 结 
脉冲 的 分 类 结果 ， 可 以 评估 n- y 甄别 的 效果 。 
为 了 定量 分 析 不 同方 法 甄别 结果 之 间 的 差异 , 我 人 
图 如 图 7 所 示 。 不 难 发 现 , 34 features GMM 与 CCM : 
只 有 1.36% 的 差异 , 但 是 10 features GMM (Random Forest 分 类 )、11 features GMM 
) 和 62 features GMM〔 脉 冲 非 基线 部 分 的 62 A ACRI 


结果 差异 热力 


H 


b^ 


y 30 


低 ， 其 甄别 结果 相互 之 间 的 差异 也 是 巨大 
在 经 验 选 择 特征 子 集 时 ， 采 样 点 的 选择 范 
30.06%， 远 高 于 34 features GMM。 一 方面 ，62 features GMM 使 用 
GMM 特征 维度 依旧 较 高 ， 存 在 “维度 灾难 ”。 
另 一 个 很 明显 的 事实 是 特征 选择 算法 在 脉冲 波形 甄别 中 的 特征 选择 表现 极 差 , 同 
VETE] Random Forest 分 类 和 Logistic 回归 之 间 的 差异 为 24.61%， 且 错误 率 均 在 3096 
外 且 不 稳定 。 核 脉冲 是 非常 微弱 的 信号 ， 易 受 噪声 影响 ， 单 个 采样 


的 部 分 ， 另 一 方面 ，62 features 


TEX 
以 上 ， 特 征 选择 结果 不 精确 


在 较 


聚 类 效果 


' 经 典 方法 ， 在 较 高 的 


Ke 


点 ) 5 CCM 甄别 结 


氏 的 能 量 域内 完全 混合 ， 
的 差异 ， 共 有 可 靠 标 签 的 脉冲 是 必需 的 。CCM 是 在 中 子 伯 


量 域 (100-2100 KeV) 内 中 子 和 伽 马 
是 可 靠 的 ， 比 较 不 同方 法 对 100-2100KeV 


无 法 被 杜 


门将 不 同方 法 的 结果 进行 两 两 得 到 甄别 
及 别 结果 之 间 相 差 最 小 ， 


Logistic 


果 差 异 都 达到 


% 以 上 。 此 外 ，10 features GMM, llfeatures GMM 和 62 features GMM 不 仅 甄别 精度 


的 。 


的 特征 
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围 极为 重要 ，62 features GMM 的 错误 率 高 达 
是 脉冲 差异 最 大 


ET 


点 的 波动 较 大 , 特征 选择 是 从 找 出 重要 性 最 高 的 数 个 特征 , 但 是 核 信号 缺乏 主导 性 的 采样 点 ， 


这 导致 特征 选择 在 
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Fig.7 Differences in classification results with different feature subsets 


Qui 和 Qua 通过 对 采样 点 积分 ,降低 了 单个 采样 点 的 波动 对 甄别 结果 
主 成 分 的 解释 方差 远 高 于 其 他 特征 ， 对 甄别 结果 具有 诀 定 性 作用 。 


析 计 算 新 的 正 交 特征 ， 
了 进一步 探究 最 优 特 重 


E 子 集 的 取 值 , 在 特征 子 集 


步 降 维 ， 


的 影响 。 主 成 分 


可 以 得 到 


分 
为 
高 


要 性 更 


且 更 少 的 新 特征 。 
2.3 KPCA 降 维 

脉冲 非 基线 部 分 包括 62 个 采样 点 , 脉冲 差异 最 大 即 脉 冲 尾部 有 34 个 采样 点 , 这 两 个 特 
征 子 集 都 是 具有 代表 性 的 经 验 选择 方法 。 

脉冲 非 基 线 部 分 包括 62 个 采样 点 ， 使 用 KPCA 对 62 个 采样 点 进行 降 维 后 ， 我 们 取 前 
三 个 主 成 分 作为 特征 进行 GMM 聚 类 。 在 特征 空间 中 ， 我 们 很 难 准确 判断 分 类 结果 的 准确 
TE. 图 8 是 该 方法 的 聚 类 结果 在 Energy-PSD 图 中 的 分 布 ， 其 中 正方 形 代 表 中 子 ， 圆 形 代 表 
Y 射线 ， 该 结果 存在 大 量 错误 甄别 。 
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图 8 非 基线 采样 点 作为 原始 特征 降 维 后 ， 前 三 个 主 成 分 输入 GMM 聚 类 的 结果 
Fig.8 The non-baseline sampling points as raw features and the GMM clustering result of the 
first three principal components. 


以 脉冲 尾部 中 随机 14 个 采样 点 的 KPCA 结果 为 例 ，KPCA 的 结果 如 图 9 所 示 ， 前 三 个 
主 成 分 的 解释 方差 分 别 为 64.65%、22.73% 和 3.35%， 图 中 前 三 个 主 成 分 累计 方差 ( 即 三 者 之 
和 ) 已 经 超过 90%， 并 且 第 一 个 主 成 分 的 占 比 极 高 。 即 使 是 从 脉冲 尾部 随机 取样 ， 前 三 主 成 
分 依旧 具有 较 高 的 解释 方差 。 
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图 9 脉冲 尾部 中 14 个 主 成 分 特征 的 贡献 率 和 累积 贡献 率 
Fig.9 Contribution rate and cumulative contribution rate of 14 principal component features 


为 了 进一步 完善 经 验 选取 方法 , 我 们 从 峰值 位 置 (第 28 个 采样 点 ) 作 为 起 点 ， 取 28 到 38 
采样 点 作为 第 一 个 特征 子 集 ， 每 次 增加 三 个 采样 点 至 第 62 个 采样 点 ， 此 时 共有 9 个 特征 子 
f, 大 小 从 10 到 34。 此 外 , 我 们 还 增加 了 第 28 个 采样 点 前 的 采样 点 以 探究 元 余 项 的 影响 。 
K 1 是 经 验 选 择 方法 的 部 分 特征 子 集 降 维 的 结果 ,其 中 起 止 采样 点 是 特征 子 集 的 选取 范围 ; 
前 三 主 成 分 累计 方差 反映 了 KPCA 的 结果 , 特征 子 集 越 小 , 前 三 主 成 分 累计 方差 越 高 ; 误差 
则 是 在 100-2100 keV 能 量 域内 ， 以 三 个 主 成 分 进行 GMM 聚 类 后 的 结果 与 标签 对 比 后 的 错 
误 率 。 特 征 子 集 “28-38”，“28-50” 以 及 “28-62” 都 是 来 自 于 脉冲 尾部 的 34 个 采样 点 ， 
子 集 “25-62” 和 “1-62” 则 是 引入 了 一 部 分 脉冲 非 基 线 的 采样 点 。 不 难 发 现 ， 特 征 子 集 来 自 
脉冲 尾部 采样 点 时 ， 错 误 率 均 在 1% 左 右 。 特 征 子 集 “25-62” 是 错误 率 最 低 的 ， 脉 冲 的 尾 积 
分 起 点 位 置 是 以 最 优 的 CCM 甄别 结 果 确 定 的 ， 与 最 优 KPCA-GMM 聚 类 结果 不 完全 相同 ， 
但 差异 不 大 。 特征 子 集 “1-62” 的 错误 率 达 到 49.096%,， 该 特征 子 集 不 论 直 接 聚 类 还 是 KPCA 
后 聚 类 ,结果 都 很 差 。 结 合 特征 选择 算法 的 结果 ,特征 子 集 内 的 特征 必须 来 自 于 脉冲 差异 最 
大 部 分 的 采样 点 ， 该 部 分 与 尾 积分 对 应 的 采样 点 不 完全 重合 ， 但 差异 不 大 ， 尾 积分 对 应 的 采 
样 点 可 近似 为 最 优 特征 子 自 
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表 1 经 验 选 择 方法 的 部 分 特征 子 集 降 维 结果 
Table 1 The dimensionality reduction results of partial feature subsets 
selected by experience selection methods 


起 止 采样 点 28-38 28-50 28-62 25-62 1-62 
前 三 主 成 分 累计 方差 0.9983 0.9890 0.9746 0.9707 0.9070 
错误 率 1.120% 1.019% 1.044% 0.929% 49.096% 


3 结语 


为 了 得 到 最 佳 特征 子 集 ， 本 文通 过 经 验方 法 、Random Forest 分 类 特征 选择 算法 和 
Logistic 回归 特征 选择 算法 得 到 特征 子 集 。 经 验 挑选 特征 子 集 从 10 个 采样 点 到 62 个 采样 点 
不 等 ，Random Forest 分 类 得 到 的 特征 子 集 包括 10 个 特征 ，Logistic 回归 得 到 的 特征 子 集 包 
括 11 个 特征 。 在 经 验 选 择 特征 子 集 时 ， 采样 点 的 选择 范围 极为 重要 ，62 features GMM 的 错 
误 率 高 达 30.06%， 远 高 于 34 features GMM。 特 征 选择 算法 在 脉冲 波形 甄别 中 的 特征 选择 表 
现 极 差 ,Random Forest 分 类 和 Logistic 回归 之 间 的 差异 为 24.61%, 上 且 错误 率 均 在 30% 以 上 ， 
特征 选择 结果 不 精确 且 不 稳定 。 

特征 选择 算法 在 特征 选择 中 ,面临 着 三 个 问题 : 首先， 原始 特征 为 脉冲 非 基 线 部 分 采样 
点 《62 采样 点 ) 时 ,挑选 的 特征 子 集 与 尾部 采样 点 重合 度 不 高 ， 这 表明 算法 的 特征 选择 精度 
R: 其 次 ， 原 始 特征 包含 一 部 分 基线 部 分 采样 点 〈120 采样 点 ) 时 ， 特 征 子 集 与 从 脉冲 非 基 
线 部 分 采样 点 中 挑选 的 特征 子 集 不 同 ， 这 表明 该 方法 稳定 性 差 ， 最 后 ，Random Forest 分 类 
和 Logistic 回归 两 种 特征 选择 算法 的 结果 不 同 , 这 也 表明 特征 选择 算法 难以 获得 可 靠 的 稳定 
的 特征 子 集 。 核 信号 是 十 分 微弱 的 信号 ， 单 个 采样 点 对 脉冲 甄别 结果 的 影响 有 限 ， 而 且 采 样 
点 数值 波动 大 。 因 为 没有 起 主导 重要 性 的 采样 点 , 分 类 和 回归 的 特征 选择 方法 得 到 的 结果 不 
同 ， 稳 定性 差 ， 甚 至 于 基线 采样 点 也 会 对 特征 选择 的 结果 有 影响 ， 从 62 个 采样 点 得 到 的 最 
优 特 征 子 集 大 小 (10) 与 从 120 个 采样 点 得 到 的 最 优 特 征 子 集 大 小 (6) 不 同 。 

主 成 分 分 析 计 算 新 的 正 交 特征 , 前 三 主 成 分 的 解释 方差 远 高 于 其 他 特征 。 为 了 得 到 最 优 


特征 子 集 ， 我 们 将 经 验 选 择 得 到 的 特征 子 集 降 维 ， 进行 了 更 细致 的 分 析 。 特 征 子 集 来 自 于 脉 
冲 尾部 时 , 错误 率 均 在 1% 左 右 。 特征 子 集 “*1-62” 的 错误 率 达 到 49.096%, 该 特征 子 集 不 论 直 
接 聚 类 还 是 KPCA 后 聚 类 ， 结 果 都 很 差 。 特 征 子 集 “25-62” 是 错误 率 最 低 的 ， 这 说 明 最 优 特 
征 子 集 与 尾 积 分 对 应 的 采样 点 不 完全 重合 , 但 差异 不 大 , 尾 积分 对 应 的 采样 点 可 近似 为 最 优 
特征 子 集 。 
设备 

网 络 通信 信号 检测 系统 ，1502195N; NI-1085 机 箱 、NI-5162 高 速 数 字 化 仪 、NI-7976R 
FPGA 模块 。 
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